[公式省略] -nn基于注意的视频视觉变压器用于动作识别__

[公式省略] -nn基于注意的视频视觉变压器用于动作识别

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

[公式省略] -nn基于注意的视频视觉变压器用于动作识别

¥ 1.0

热度

行动识别旨在理解人类行为并预测每个行动的标签。最近，Vision Transformer（VIT）在动作识别方面取得了出色的性能，该识别对视频中的空间和时间索引上的长序列进行了建模。完全连接的自我发言层是香草变压器的基本密钥。但是，视觉变压器模型的冗余体系结构忽略了视频框架贴片的局部性，这涉及非信息令牌，并可能导致计算复杂性的提高。为了解决此问题，我们提出了一个基于注意的视频视觉变压器（𝑘 -Vivit）网络以进行动作识别。我们对视频视觉变压器（Vivit）而不是原始的自我注意力采用𝑘 -NN的注意，这可以优化训练过程并忽略输入序列中无关或嘈杂的令牌。我们在UCF101和HMDB51数据集上进行实验，以验证我们的模型的有效性。实验结果表明，与这些动作识别数据集中的几个最新模型相比，所提出的Vivit具有优越的精度。

添加pdf代下载 VIP点击下载文件